# step1_check_data.py
import pandas as pd
import os

print("=== 步骤1: 检查数据文件 ===")

# 检查文件是否存在
print("当前目录下的文件:")
for file in os.listdir('.'):
    if 'wine' in file.lower():
        print(f"找到文件: {file}")

# 定义列名（根据wine.names文件）
column_names = ['class', 'alcohol', 'malic_acid', 'ash', 'alcalinity_of_ash', 
                'magnesium', 'total_phenols', 'flavanoids', 'nonflavanoid_phenols',
                'proanthocyanins', 'color_intensity', 'hue', 'od280/od315', 'proline']

try:
    # 读取wine.data文件
    print("\n正在读取 wine.data 文件...")
    wine_data = pd.read_csv('wine.data', header=None, names=column_names)
    
    print("数据读取成功！")
    print(f"数据形状: {wine_data.shape}")  # 应该是 (178, 14)
    print(f"样本数: {len(wine_data)}")
    print(f"特征数: {len(wine_data.columns)}")
    
    print("\n各类别样本数量:")
    print(wine_data['class'].value_counts().sort_index())

    print("\n数据前5行:")
    print(wine_data.head())

    print("\n数据基本信息:")
    print(wine_data.info())
    
    # 保存为CSV文件，方便后续使用
    wine_data.to_csv('wine_data.csv', index=False)
    print("\n数据已保存为 wine_data.csv")
    
except Exception as e:
    print(f"读取文件时出错: {e}")
    print("请检查 wine.data 文件是否在当前目录下")

input("\n按 Enter 键继续下一步...")